iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 19
3
AI & Data

深入淺出搜尋引擎和自然語言處理系列 第 19

Day 19: AI能辨識專有名詞?關於命名實體辨識

  • 分享至 

  • xImage
  •  

過去12天都在講搜尋引擎技術和資訊檢索,這幾天要拉回來繼續介紹自然語言處理界的常見任務了!

命名實體辨識(Named Entity Recognition),顧名思義--辨識「命名實體」。命名實體指一個真實世界的物件,可能是地方、人物、組織、產品等具有專有名稱的物件。例如「New York City」(紐約市)這三個字就都是指一個地方的命名實體,或是「Donald Trump」這兩個字指一個人物的命名實體。

https://ithelp.ithome.com.tw/upload/images/20190920/20118683ZDFV98p78h.png
(圖片來源:https://towardsdatascience.com/named-entity-recognition-with-nltk-and-spacy-8c4a7d88e7da )

類似Day 2提過的詞性標註,命名實體辨識也是在字詞後面加註。而面臨和詞性標註相似的問題,同一個實體也能夠有多種標籤的可能。例如「Washington」(華盛頓)可能指一個人、一個地方、甚至一個政治性實體(英文新聞中常稱美國政府方面為華盛頓,就像稱海峽兩岸為北京、台北)。

在實作命名實體辨識時,會先將句子詞性標註。有一種詞性標註為「NP」(或「NNP」),意思是專有名詞。當辨識時看到這個標籤,機器會從實體資料庫中尋找可能的命名實體為這個字詞標上。

理論上,命名實體辨識也可以用sequence labeling的模型來做,例如Hidden Markov Model (HMM), Maximum Entropy Markov Model (MEMM), 以及CRF。目前用來處理命名實體辨識的最新技術是deep-crf模型。


上一篇
Day 18: 透過搜尋結果評估搜尋引擎的效果(二)
下一篇
Day 20: 從文章中獲取有用的資訊!關於資訊抽取
系列文
深入淺出搜尋引擎和自然語言處理30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言